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Аннотация 

Введение. Проведенный анализ существующих подходов к отслеживанию тела человека выявил наличие 
проблем при захвате движений в трехмерной системе координат. Отмечена перспективность систем захвата 
движений на основе компьютерного зрения. В существующих исследованиях по безмаркерным системам захвата 
движений рассматривается позиционирование только в двумерном пространстве. Поэтому целью исследования 
являлось повышение точности определения координат человеческого тела в трехмерных координатах за счет 
разработки метода захвата движения на основе компьютерного зрения и алгоритмов триангуляции. 

Материалы и методы. Представлен метод захвата движений, включающий калибровку нескольких камер и 
формализацию процедур обнаружения человека в кадре с использованием сверточной нейронной сети. На основе 
полученных от нейронной сети скелетных точек осуществляется трехмерная реконструкция модели тела 
человека с использованием различных алгоритмов триангуляции. 

Результаты исследования. Проведены экспериментальные исследования по сравнению четырех алгоритмов 
триангуляции: прямого линейного переноса, линейного метода наименьших квадратов, Г.2 триангуляции и 
полиномиального методов. Определен оптимальный алгоритм триангуляции (полиномиальный), 
обеспечивающий погрешность не более 2,5 пикселей или 1,67 сантиметров. 

Обсуждение и заключение. Выявлены недостатки существующих систем захвата движения. Предложенный 
метод направлен на повышение точности захвата движений в трехмерных координатах с использованием 
компьютерного зрения. Полученные результаты интегрированы в программное обеспечение позиционирования 
тела человека в трехмерных координатах для удаленного мониторинга, использования в виртуальных тренажерах 
и системах захвата движений. 
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обучение 
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Введение. В области компьютерного зрения в настоящее время достигнут значительный прогресс. 
Разработаны технологии, позволяющие решать задачи обнаружения объектов, определения их состояния, 
геометрической оценки изображенного на кадре пространства и многие другие. Благодаря этому компьютерное 
зрение получило широкое распространение в различных сферах деятельности человека, начиная от 
здравоохранения и образования, заканчивая сферой развлечений. Достаточно перспективным направлением 
является применение технологий компьютерного зрения для трехмерной реконструкции и позиционирования 
различных объектов, в том числе и людей. Существует достаточно большое количество систем для определения 
абсолютного положения человека в пространстве, которые можно разделить по следующим категориям: 

— системы, использующие инерциальные датчики и позволяющие определить величину их перемещения, а 
также изменение углов между ними, что предполагает использование гироскопов и акселерометров [1]. 
Известным представителем данной категории является МоНйот Мосар Регсерйоп Меигоп [2], включающий до 32 
инерциальных датчиков; 

— лазерные системы позиционного слежения, основанные на использовании базовых станций, установленных 
на противоположных сторонах помещения и излучающих инфракрасные лучи, которые позволяют точно 
определять положение и ориентацию датчиков в пространстве. Примером таких систем являются комплекты 
виртуальной реальности от компании НТС [3], обладающие погрешность до 0,1 мм; 

— системы, использующие магнитные датчики [4], основанные на применении магнитного поля для захвата 
движения человека, которые предполагают наличие носимых датчиков на теле пользователя. К данной категории 
относится Рофепиз Глбему — портативная электромагнитная система отслеживания движений, считающаяся 
одной из самых быстрых (частота дискретизации 240 Гц); 
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— оптические системы на основе маркеров — определяют положение объектов по маркерам с использованием 
набора камер. Примером является У1соп, обладающий достаточно низкой погрешностью: средние абсолютные 
ошибки отслеживания маркера составляют 0,15 мм при статических испытаниях и 0,2 мм (с соответствующими 
угловыми ошибками 0,3°) — при динамических испытаниях [5]; 

— безмаркерные оптические системы, основанные на использовании компьютерного зрения и машинного 
обучения. Примерами таких технологий являются ОрепРозе, МеФаРре, Моуепе. С их помощью движения 
человека могут отслеживаться с точностью до 30мм [6]. 

Анализируя перечисленные категории систем захвата движений, можно сделать вывод, что большинство 
решений, используемых для распознавания человеческих действий и движений предполагает наличие различных 
носимых устройств, таких как сенсоры или перчатки. Основная масса этих устройств являются громоздкими из- 
за большого количества датчиков и необходимости проводного подключения. Некоторые такие системы 
обладают высокой точностью, но при этом не могут быть использованы из-за размеров или наличия 
электромагнитных помех [7]. Инерциальные системы имеют ряд проблем, связанных с накоплением ошибок, что 
ограничивает их использование только относительным позиционированием в пространстве. 

Поэтому большой популярностью пользуются оптические системы для распознавания и отслеживания 
действий пользователя. Для получения информации о действиях и положении пользователя используются кадры, 
полученные с камеры. Среди оптических систем стоит отметить те, которые используют маркеры (пользователь 
может быть одет в специальную одежду или на нем закреплены определенные метки), что затрудняет их 
использование в реальных условиях и больше применимо для специально подготовленных помещений 
(например, киностудий). 

Системы, не использующие какие-либо маркеры, позволяют пользователям более свободно 
взаимодействовать с окружающей средой и больше подходят для применения в реальных условиях. К 
существенным недостаткам систем этого направления можно отнести относительно невысокую точность, 
ненадёжность и низкую производительность. Во многом это может быть обусловлено недостатками алгоритмов 
компьютерного зрения, используемых для распознавания человека в кадре, а также следующими причинами: 
изменчивостью внешнего вида человека и условий освещения, частичными окклюзиями из-за наслоения 
объектов в сцене, сложностью человеческой скелетной структуры. 

В основе работы безмаркерных систем захвата движения, как правило, используется алгоритм оценки позы 
человека. Подходы к решению задачи оценки позы человека можно разделить на нисходящие и восходящие. 
В нисходящих подходах сначала происходит обнаружение людей в кадре, затем оценка позы каждого найденного 
человека. Алгоритмы, которые относятся к восходящим подходам, на первом этапе выполняют поиск частей тела 
в кадре, затем производят их группировку в позы. Как правило, для этой задачи применяются сверточные 
нейронные сети, такие как УОГО (Уой Тюоок Ошу Опсе) [8], 550 (Зш&е 5боё Раесйоп) [9], 
В—СММ (Везюп СММ) [10] и другие. Они позволяют распознавать множество различных объектов, включая 
человека или отдельные части тела с высокой точностью. Однако одним из недостатков решений, перечисленных 
выше, можно назвать их низкую производительность и медленную работу. Для решения этой проблемы 
существуют специальные фреймворки (МоуеМе( [11], МеФаР1ре [12], ОрепРозе [13]), также использующие 
нейронные сети, оптимизированные для работы в режиме реального времени. 

Необходимо отметить, что вышеуказанные алгоритмы, технологии и подходы безмаркерных систем захвата 
движения позволяют осуществить позиционирование в двумерном пространстве, что затрудняет как определение 
расстояния до объектов и их размеров, так и отслеживание сложных движений, когда, например, руки 
пользователя скрыты его телом. Существующие решения в области стереокамер могут быть эффективны, но не 
отличаются большой точностью при значительном удалении объекта от камеры, что происходит при 
отслеживании всего тела человека. Кроме того, они не решают проблемы окклюзий. Таким образом, актуальным 
направлением исследований является разработка метода захвата движений с использованием нескольких камер 
и технологий компьютерного зрения. При реализации многокамерных систем захвата движений неизбежно 
возникает проблема совмещения объектов с нескольких изображений, т.е. необходимость выполнения 
триангуляции. Среди методов триангуляции можно выделить линейные и итеративные линейные алгоритмы. 

Линейная триангуляция наиболее распространённый подход к выполнению реконструкции объектов в трёхмерном 
пространстве, включающая такие методы как линейно-собственный метод, линейный метод наименьших квадратов, 
прямое линейное преобразование, отличающиеся разной степенью устойчивости к шуму [14]. 

Итеративные линейные методы представляют собой более надёжную версию линейной триангуляции. 
Обычные линейные методы могут быть менее точны при решении задач триангуляции совокупности точек, так 
как при решении систем минимизируемая ошибка не имеет геометрического смысла (не учитывает форму 


Информатика, вычислительная техника и управление 


319 


В&р://уезиК-опза.га 


320 


'А4уапсей Епотеетиз Веуеагсй (Ко51оу-оп-Ооп). 2023;23(3):317—328. е155М№ 2687—1653 


скелета и правила соединения точек). Основная идея итерационных линейных методов заключается в адаптивном 
изменении весов линейных уравнений таким образом, что взвешенные уравнения соответствуют ошибкам. К 
итеративным линейным методам можно отнести Г.2 и [00 триангуляцию [15]. 

Таким образом, в рамках данного исследования ставится следующая задача: необходимо разработать метод 
захвата движений человека, позволяющий позиционировать тело пользователя в трехмерных координатах с 
минимальной погрешностью и с использованием технологий компьютерного зрения. Предлагаемый метод может 
использоваться как замена существующих систем захватам движений, так и входить в состав других алгоритмов, 
например, для последующей классификации состояния человека. Целью данной работы является повышение 
точности определения поз и координат человеческого тела в трехмерных координатах за счет разработки методов 
захвата движения на основе компьютерного зрения. Для достижения поставленной цели необходимо 
формализовать основные этапы процесса захвата точек тела человека с нескольких камер, интегрировать 
алгоритмы триангуляции, выбрав среди них оптимальный с точки зрения точности, осуществить программную 
реализацию предложенного метода. 

Материалы и методы. Решение задачи трехмерного позиционирования человека в пространстве включают 
следующие основные этапы: 

— предварительная калибровка набора камер; 

— реализация процедур обнаружения человека в кадре и расчет скелетных точек; 

— расчет трехмерной реконструкции модели тела человека. 

Рассмотрим их более подробно. 

Процесс калибровки включает в себя выполнение системой камер нескольких снимков калибровочного 
шаблона, на котором можно легко выделить ключевые точки с известными для них относительными 
положениями в пространстве. После осуществляется расчет внутренних и внешних параметров для каждой 
камеры. Внутренние параметры постоянны для конкретной камеры, внешние — зависят от расположения камер 
относительно друг друга [16]. Поэтому данный шаг необходимо выполнять перед первым использованием 
системы камер в заданном расположении. 

Для вычисления значений координат точки в трёхмерном пространстве необходимо знать координаты еб 


проекций на изображениях и проективные матрицы камер [17]. Проективная матрица Р некоторой камеры 
может быть представлена в виде комбинации матриц А (содержащей внутренние параметры камеры) и К 


(вращения), а также вектора перемещения Т ‚› которые описывают изменение координат из мировой системы 
координат в систему координат относительно камеры: 


Оси 1 № Ц 
Р=АК|Т]=| 0 И с: Г» 7 Бр (1) 
Ооо Ею № РБ 
где (х,У) — координаты проекции трёхмерной точки на изображении в пикселях; (с,,с,) — координаты 


центральной точки камеры; ({., Г.) — фокусное расстояние в пикселях. 


На втором этапе необходимо получить непосредственно ключевые (скелетные) точки тела человека на каждой 
их камер. Для извлечения скелетных точек тела из кадра возможно применение различных технологий 
машинного обучения, например, МоуеМеь МефаР1ре, ОрепРозе и других [18]. В рамках данного исследования 
предлагается использовать высокоэффективный и производительный модуль Розе из библиотеки Ме фаР1ре. 
МеФаР1ре Розе использует машинное обучение для высокоточного отслеживания позы тела человека, 
определения трехмерных ориентиров и маски сегментации фона на всем теле из видеокадров ВСВ. Данный 
подход позволяет отслеживать до 33 точек и обеспечивает работу в реальном времени на большинстве 
современных устройств. 

Таким образом, в рамках второго этапа формируется набор из 33 точек для каждой 1-ой камеры: 


м = (музу, [Е 11,2,...ЗЗ}: с о, (2) 
где и, — координата /-ой точки по оси Х на {-ом изображении; у, — координата /-ой точки по оси У на {-ом 


изображении; К — общее количество камер и изображений. 

На третьем этапе выполняется расчёт положений ключевых скелетных точек в трёхмерном пространстве. 
Для получения данных о положении скелетных точек человека в пространстве выполняется 
триангуляция — нахождение координат трёхмерной точки по координатам её проекций. Триангуляция — одна 
из важнейших задач в компьютерном зрении, её решение является решающим этапом в ЗО-реконструкции и 
влияет на точность всего результата [19]. 
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В основе трехмерной реконструкции точек объекта по значениям положений проекций точек на изображениях 
со всех камер лежит эпиполярная геометрия. Основная её идея заключается в том, что ЗО-точки в сцене 
проецируются на линии в плоскости изображения каждой камеры — эпиполярные линии. Эти линии 
соответствуют пересечению плоскости изображения с плоскостью, проходящей через центры камер и З)-точку. 
Данная идея обеспечивает условие для поиска пар соответствующих точек на двух изображениях: если известно, 
что точка х на плоскости первого изображения соответствует точке х' на плоскости другого изображения, то ее 
проекция должна лежать на соответствующей эпиполярной линии. Согласно этому условию, для всех 
соответствующих пар точек х <> х' будет справедливо следующее отношение: 

х'Ех=0, (3) 
где Е — фундаментальная матрица, имеющая размер 3х3 и ранг равный 2. 

Для некоторой точки АХ, заданной в трёхмерном пространстве, справедлива следующая формула 
проецирования, выражающаяся в однородных координатах: 

50%, (4) 
где х, = и(и,‚, у, ,1)Т — однородные координаты некоторой точки на плоскости 1-го изображения (полученной 
с [-ой камеры в ходе второго этапа), включающие положение на изображении и, (по оси Х) и У; (по оси У); 


у — коэффициент масштабирования; Р — проекционная матрица 1-Й камеры, полученная на первом этапе. 


т 


Для упрощения вычислений проекционная матрица камеры зачастую представляется в следующем виде: 


рт 

Р=| р" (РЕВ), (5) 
р! 

где р” — /-ая строка матрицы Р. 


Следовательно, уравнение (4) может быть представлено следующим образом: 


ми, = ри Х, 
уу, = р2ТХ, (6) 
= р? Х. 


Так как и› — коэффициент масштабирования, получаем следующую систему уравнений: 
Ир Х-рИХ =0, (7) 
ирИХ-рХ =0. 


Так как Х является однородным представлением координат в трёхмерном пространстве, то для их 


вычисления необходимо получить х, и Р как минимум для двух камер. Для решения системы уравнений (7) 


рассмотрено 4 алгоритма [14]: 

— прямой линейный перенос (ОГТ); 

— линейный метод наименьших квадратов; 

— [2 триангуляция; 

— оптимальный (полиномиальный) метод. 

ОГТ относится к линейным алгоритмам триангуляции, главным достоинством которого является простота 
его реализации. Так, например, в библиотеке компьютерного зрения ОрепСУ существует готовая реализация 
данного алгоритма в методе 1апеи]аеРош. 

Линейный метод наименьших квадратов также относится к линейным и состоит в том, что система 
однородных уравнений (7) сводится к системе, состоящей из неоднородных уравнений, для решения которой 
используется метод наименьших квадратов. 

Г.2 триангуляция является итеративным методом трехмерной реконструкции, решение которой сводится к 
минимизации ошибки перепроецирования: 


У4(х,х,) > пи, (8) 


где х, — координата проекции оцениваемой точки на изображении; х; — координата проекции, вычисленная 


по формуле (4) для уже рассчитанной пространственной точки; 4(®) — расстояние между двумя точками. 


Алгоритм оптимальной (полиномиальной) триангуляции относят к неитеративным подходам. Для его 
решения требуется полином шестого порядка. Критерий минимизации для выполнения трёхмерной 
реконструкции в данном методе можно определить следующим образом: 
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х4(х,,^,) —> пи, (9) 


где ^, — эпиполярная линия, соответствующая точке х, . 

При использовании системы из двух камер для минимизации ошибки (9) необходимо выполнить следующую 
последовательность действий: 

— параметризировать пучок эпиполярных линий на первом изображении с помощью параметра #. Таким 


образом эпиполярная линия на первом изображении может быть выражена как Л. (#); 


— используя фундаментальную матрицу РЁ, вычислить соответствующую эпиполярную линию Л,(Ё) на 
втором изображении; 

— выразить функцию расстояния (9) как функцию от #; 

— выполнить поиск значения #, при котором (9) стремится к минимуму. 

Используя методы элементарного исчисления, можно свести решение задачи минимизации к нахождению 
корней полинома шестого порядка. Вычисление предполагаемой пространственной точки осуществляется с 
помощью метода прямого линейного переноса (ОГТ) [17]. 

Подводя итог третьему этапу, получим, что после успешного решения системы (7) и получения мировых 
координат ключевых точек целевого объекта (тела человека) формируется следующее множество точек Н : 

н={х, Ух, =РХ,)} , (10) 
где Х, — мировые координаты скелетной точки тела человека, полученные после решения задачи триангуляции, 
выраженные в сантиметрах. 


Таким образом, задача оптимизации в данном исследовании при использовании двух камер сводится к нахождению 
такого метода триангуляции МТ : {х,} —> Н , при котором ошибка перепроецирования стремится к минимуму: 


оо. 
= — —> ши. (11) 


Результаты исследования. Решение задачи оптимизации (11) осуществляется при выполнении 
триангуляции двумерных точек объекта, полученных с изображений нескольких камер, в рамках данного 
исследования — с двух камер с использованием различных алгоритмов, перечисленных в предыдущем разделе. 

Перечисленные методы триангуляции были реализованы с использованием библиотек ОрепСУ и МатРУ. Для 
сравнения алгоритмы были интегрированы в программное обеспечение, реализующее метод трёхмерного захвата 
движений. Пример работы метода для реконструкции всего скелета человека представлен на рис. 1. 


Первая камера ьт Трехмерный скелет Ра Вторая камера 
100 


Рис. 1. Пример работы метода, включающий распознавание человека на двух камерах и построение трёхмерного скелета 
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Затем было выполнено сравнение данных алгоритмов по значению функции ошибки перепроецирования (11) 
для всех точек скелета с двух изображений. Проведено сравнение выбранных методов триангуляции по величине 
ошибки, а также по времени получения решения (вычислительной сложности) для всей совокупности точек 
скелета. Сводные сравнительные диаграммы представлены на рис. 2. 
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Рис. 2. Сравнение методов триангуляции по метрикам: а — по ошибке перепроецирования; б— по времени вычислений 


Для выбранных методов триангуляции также проведен ряд экспериментальных тестов, в ходе которых для 
каждого подхода замерялись рассчитанные ДЛИНЫ конечностей пользователя и абсолютное отклонение 


полученных значений от реальных. Сравнение представлено в таблице 1. 


Таблина 1 
Сравнение точности определения размеров конечностей в процессе триангуляции 
| Реальное 
Сегмент тела БЕТ Геа5{-Заиагез Г2 Роупопла! 
значение 
Предплечье 25,2 = 1,6 30,8 = 0,2 26,6 = 0,5 24,3 = 0,4 26 
Голень 42,2 = 2,0 65,3 = 1,1 44,6 + 0,7 38,7 = 1,8 41 
Бедро 45,7 =2,7 59,5 + 0,49 48,7 = 1,3 44,1 + 0,6 45 
— 2,43 14,58 2,26 1,67 0 
отклонение 
Представлены средние значения (в сантиметрах) после в выборке из 10 измерений - среднее отклонение в выборке 


Разработанное программное обеспечение включает следующие модули: 


— для работы с устройствами ввода (камерами); 


— для выполнения калибровки и получения основных параметров камер; 


— для синхронизации нескольких камер; 


— для распознавания объектов (тело и руки пользователя); 


— для анализа расположения найденных скелетных точек; 


— для построения визуализации в режиме реального времени. 
При реализации программного обеспечения использовался язык программирования Ру#фоп, библиотеки 
ОрепСУ и Маф|о 6. Функционирование системы осуществляется в нескольких потоках: один отвечает за 


получение данных с камер, второй —Й_ за визуализацию, третий —_ за отправку полученных мировых координат 
тела человека во внешние системы или модули. Использование унифицированного протокола с пакетом данных 


в формате 7/ЗОМ позволяет интегрировать программное обеспечение в сторонние системы (например, игровые 
среды разработки Опйу, Чпгеа! Епете ит.д.) [20, 21]. 
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Обсуждение и заключение. Проанализируем результаты сравнения алгоритмов триангуляции по выбранным 
метрикам, представленные на рис. 2 и в таблице 1. 

В ходе сравнения обнаружено, что оптимальным алгоритмом для трехмерной реконструкции является 
полиномиальный метод. Значение ошибки составляет порядка 2,55 пикселей. В реальных испытаниях при 
определении роста человека ошибка составила не более 3 %, с учетом того, что МефаР1ре Розе не фиксирует 
верхнюю точку головы и она рассчитывается примерно на основе положения глаз. При измерении конечностей 
погрешность составила от 0,9 см до 2,3 см, средняя — 1,67 (таблица 1). Таким образом, реальные испытания 
подтверждают правильность выбора полиномиального метода. 

Далее сравним полученные результаты с существующими исследованиями, например, описанными в 
работе [22]. Авторы также используют обученные сети (ОрепРозе) для реализации безмаркерной системы 
распознавания человека, процедуру калибровки камер, извлечение скелетных точек, но располагают камеры 
рядом друг с другом для имитации стереозрения. Это ключевое отличие позволяет распознавать в рамках данного 
исследования позы человека, когда одни части тела перекрывают другие. Кроме того, использование МеФаР1ре 
Розе позволяет отслеживать 33 скелетные точки, а не 18, как в методе на основе ОрепРозе. Полученные значения 
ошибок в целом соответствуют существующим исследованиям (наилучший результат в работе [22] составляет 2 см), 
что позволяет сделать вывод о возможности практического использования предложенного подхода. Прочие 
безмаркерные системы, например, на основе Кшеси [23], также показывают сравнимые результаты по величине 
погрешности измерений (2—5 см). Таким образом, полученное решение в целом соответствует по точности 
существующим разработкам. 

Сравнение времени вычисления набора точек, представленное на рис. 2 справа, показывает, что алгоритм ОГТ 
обеспечивает наибольшую производительность, однако, все алгоритмы показывают приемлемые результаты (для 
обеспечения быстродействия в 30 и даже 60 кадров в секунду). Поэтому данная метрика не является 
определяющей. 

Разработанное программное обеспечение может использоваться в различных предметных областях прежде 
всего, как замена систем захвата движений, основанных на инерциальных датчиках. Преимуществами 
предлагаемого решения являются низкие экономические затраты на реализацию и доступность (переход от 
узкоспециализированных костюмов тоНоп сариге к распространенным средствам на основе камер), 
возможность параллельного захвата моделей тел нескольких пользователей [24]. 

Научная новизна исследования состоит в комплексном подходе к формализации процесса трехмерного 
позиционирования человека с использованием технологий компьютерного зрения, включая предварительную 
калибровку набора из нескольких камер, формализацию процедур обнаружения человека в кадре с 
использованием произвольной нейронной сети для получения скелетных точек, а также расчет трехмерной 
реконструкции модели тела человека с использованием различных алгоритмов триангуляции. Исследование 
включает все необходимые расчетные формулы и подробно изложенные этапы, позволяющие достичь 
поставленной цели — повышения точности определения поз и координат человеческого тела в трехмерных 
координатах с использованием технологий компьютерного зрения. Представленные теоретические результаты 
достаточно универсальны и могут быть использованы для практической реализации систем захвата движений, 
основанных на различных моделях нейронных сетей, а не только МефаР1ре Розе. 
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